Tương quan là gì? Các bài báo nghiên cứu khoa học liên quan

Tương quan là mối quan hệ thống kê mô tả mức độ và chiều hướng liên hệ giữa hai hoặc nhiều biến số, phản ánh cách chúng thay đổi cùng nhau. Nó không đồng nghĩa với nhân quả mà chỉ cho thấy xu hướng biến động liên kết, được sử dụng rộng rãi trong nghiên cứu khoa học và phân tích dữ liệu.

Khái niệm tương quan

Tương quan là một khái niệm cơ bản trong thống kê và khoa học dữ liệu, phản ánh mức độ liên hệ giữa hai hay nhiều biến số. Khi nghiên cứu một tập dữ liệu, người ta thường quan tâm đến việc một biến thay đổi có liên quan như thế nào đến sự thay đổi của biến khác. Nếu hai biến có xu hướng thay đổi cùng chiều hoặc ngược chiều với nhau, ta nói rằng chúng có mối tương quan.

Tương quan không đồng nghĩa với quan hệ nhân quả. Ví dụ, có thể quan sát thấy nhiệt độ tăng dẫn đến lượng kem bán ra nhiều hơn, đồng thời cũng có nhiều người đến bãi biển hơn. Hai hiện tượng này có tương quan, nhưng điều đó không có nghĩa là việc ăn kem khiến con người đi biển, mà cả hai cùng chịu ảnh hưởng bởi một yếu tố thứ ba là thời tiết.

Tương quan có thể được biểu diễn bằng số liệu, biểu đồ hoặc ma trận. Trong nghiên cứu định lượng, việc xác định mối tương quan là bước quan trọng trước khi tiến hành phân tích hồi quy, dự báo hoặc mô hình hóa dữ liệu phức tạp. Theo ScienceDirect, phân tích tương quan là một trong những công cụ thống kê được sử dụng nhiều nhất trong các lĩnh vực khoa học xã hội, kinh tế, y học và kỹ thuật.

Phân loại tương quan

Tương quan có thể được phân loại dựa trên chiều hướng và mức độ quan hệ. Nếu cả hai biến tăng hoặc giảm cùng nhau, đó là tương quan dương. Nếu một biến tăng còn biến kia giảm, đó là tương quan âm. Nếu biến này thay đổi mà biến kia không có quy luật thay đổi rõ ràng, ta nói rằng hai biến không có tương quan.

Mức độ tương quan được xác định dựa trên giá trị hệ số tương quan. Giá trị càng gần +1 hoặc -1 thì mối quan hệ càng chặt chẽ. Giá trị gần 0 cho thấy mối quan hệ yếu hoặc không tồn tại mối liên hệ. Trong thực tế, hầu hết các hiện tượng xã hội và sinh học có mức độ tương quan vừa phải, vì nhiều yếu tố khác cùng tác động đến kết quả.

Bảng dưới đây minh họa các loại tương quan thường gặp:

Loại tương quan Đặc điểm Ví dụ
Tương quan dương Hai biến cùng tăng hoặc cùng giảm Chiều cao và cân nặng ở trẻ em
Tương quan âm Một biến tăng, biến kia giảm Giá hàng hóa và nhu cầu tiêu thụ
Tương quan bằng không Không có mối liên hệ rõ ràng Màu tóc và chỉ số IQ

Cách phân loại này giúp các nhà nghiên cứu nhanh chóng nhận diện loại quan hệ và từ đó chọn công cụ phân tích thích hợp hơn. Chẳng hạn, với mối quan hệ phi tuyến tính, cần dùng các phương pháp tương quan thứ hạng thay vì chỉ dùng tương quan tuyến tính.

Hệ số tương quan

Hệ số tương quan là đại lượng số đo mức độ chặt chẽ và chiều hướng mối quan hệ giữa hai biến. Giá trị hệ số tương quan Pearson, ký hiệu r, luôn nằm trong khoảng từ -1 đến +1. Khi r gần +1, ta nói rằng hai biến có mối quan hệ đồng biến rất mạnh; khi r gần -1, hai biến có mối quan hệ nghịch biến rất mạnh; khi r gần 0, mối quan hệ giữa hai biến yếu hoặc không có.

Công thức tính hệ số tương quan Pearson dựa trên hiệp phương sai của hai biến chia cho tích độ lệch chuẩn của chúng. Công thức được biểu diễn như sau:

r=(xixˉ)(yiyˉ)(xixˉ)2(yiyˉ)2 r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}}

Ví dụ, nếu ta muốn kiểm tra mối quan hệ giữa số giờ học và điểm thi của sinh viên, ta có thể tính hệ số tương quan giữa hai tập dữ liệu này. Nếu kết quả r = 0.8, điều này cho thấy số giờ học có mối quan hệ đồng biến mạnh với điểm thi. Ngược lại, nếu r = -0.6, thì số giờ tham gia mạng xã hội có thể liên quan đến việc giảm điểm thi.

  • |r| ≥ 0.7: tương quan mạnh
  • 0.3 ≤ |r| < 0.7: tương quan trung bình
  • |r| < 0.3: tương quan yếu hoặc không có

Theo NCBI, việc xác định giá trị hệ số tương quan giúp nhà nghiên cứu biết được mối quan hệ có ý nghĩa thực tiễn hay chỉ là kết quả ngẫu nhiên.

Ý nghĩa thống kê của tương quan

Việc tìm thấy một mối tương quan không đồng nghĩa với việc có quan hệ nhân quả. Một mối quan hệ có thể tồn tại do sự trùng hợp, do sự ảnh hưởng của một biến thứ ba hoặc do sai số thống kê. Do đó, trong thống kê, người ta thường phải kiểm định ý nghĩa thống kê của hệ số tương quan để xác định xem mối quan hệ có thực sự tồn tại hay không.

Kiểm định giả thuyết thường được sử dụng để xác định ý nghĩa của hệ số tương quan. Giả thuyết không (H0) cho rằng không có tương quan (r = 0), trong khi giả thuyết đối (H1) cho rằng tồn tại tương quan (r ≠ 0). Bằng cách tính toán giá trị p (p-value), các nhà nghiên cứu có thể kết luận xem mối tương quan có ý nghĩa thống kê hay không, thường dựa vào ngưỡng p < 0.05.

Theo Encyclopedia Britannica, ý nghĩa thống kê của tương quan giúp giảm thiểu nguy cơ kết luận sai, đặc biệt trong các nghiên cứu y học, nơi mà một quyết định sai có thể ảnh hưởng lớn đến chẩn đoán và điều trị bệnh nhân.

  • Ý nghĩa thống kê không đồng nghĩa với ý nghĩa thực tiễn.
  • Hệ số tương quan cao chưa chắc phản ánh quan hệ nhân quả.
  • Cần kết hợp với phân tích hồi quy, mô hình nhân quả để có kết luận chính xác.

Tương quan trong nghiên cứu khoa học

Tương quan là công cụ thống kê được ứng dụng rộng rãi trong nghiên cứu khoa học để phát hiện mối liên hệ giữa các hiện tượng. Trong khoa học xã hội, nó giúp xác định mức độ liên quan giữa hành vi, thái độ và điều kiện xã hội. Ví dụ, các nhà xã hội học thường sử dụng phân tích tương quan để nghiên cứu mối quan hệ giữa thu nhập và mức độ hài lòng trong cuộc sống. Kết quả này không chỉ phản ánh quy luật xã hội mà còn gợi ý hướng đi cho chính sách công.

Trong lĩnh vực y học, phân tích tương quan hỗ trợ đánh giá mối quan hệ giữa các yếu tố nguy cơ và sự xuất hiện bệnh tật. Một nghiên cứu được đăng trên JAMA Network cho thấy có sự tương quan mạnh giữa hút thuốc lá và ung thư phổi, cũng như giữa nồng độ cholesterol và nguy cơ bệnh tim mạch. Đây là bằng chứng khoa học quan trọng cho các chiến dịch y tế cộng đồng nhằm giảm thiểu hành vi có hại.

Trong kinh tế học, tương quan được dùng để phân tích mối quan hệ giữa các biến vĩ mô như lãi suất, lạm phát và tăng trưởng GDP. Theo JSTOR, nhiều nghiên cứu tài chính sử dụng ma trận tương quan để đánh giá mức độ phụ thuộc giữa các loại tài sản, từ đó đưa ra chiến lược phân tán rủi ro trong đầu tư.

Các phương pháp đo lường tương quan

Có nhiều phương pháp để đo lường tương quan, mỗi phương pháp phù hợp với loại dữ liệu khác nhau. Phổ biến nhất là hệ số tương quan Pearson, được áp dụng khi hai biến đều định lượng và có mối quan hệ tuyến tính. Tuy nhiên, khi dữ liệu không tuân theo phân phối chuẩn hoặc có quan hệ phi tuyến, các phương pháp khác sẽ phù hợp hơn.

Hệ số tương quan Spearman dựa trên thứ hạng dữ liệu, thích hợp khi biến có phân phối không chuẩn hoặc dữ liệu có nhiều ngoại lệ. Đây là công cụ được dùng phổ biến trong nghiên cứu tâm lý và giáo dục. Hệ số Kendall, một lựa chọn khác, đánh giá mức độ phù hợp giữa hai tập dữ liệu dựa trên số cặp thứ hạng đồng thuận và bất đồng thuận, thường được dùng khi kích thước mẫu nhỏ.

  • Pearson: đo mối quan hệ tuyến tính giữa hai biến định lượng.
  • Spearman: dựa trên thứ hạng, phù hợp cho dữ liệu phi tuyến hoặc không chuẩn.
  • Kendall: đo mức độ phù hợp thứ hạng, tốt cho mẫu nhỏ.

Việc lựa chọn phương pháp nào phụ thuộc vào bản chất dữ liệu. Sử dụng sai kỹ thuật có thể dẫn đến kết luận sai lệch, ảnh hưởng đến toàn bộ nghiên cứu.

Ứng dụng thực tiễn của phân tích tương quan

Trong thực tế, phân tích tương quan có nhiều ứng dụng. Trong lĩnh vực kiểm soát chất lượng, các nhà máy sử dụng tương quan để xác định mối liên hệ giữa điều kiện sản xuất và chất lượng sản phẩm, từ đó cải tiến quy trình. Trong khoa học dữ liệu, ma trận tương quan được sử dụng để giảm chiều dữ liệu, loại bỏ biến dư thừa và phát hiện biến quan trọng cho mô hình dự báo.

Trong tài chính, nhà đầu tư dùng phân tích tương quan để xây dựng danh mục đầu tư đa dạng hóa. Nếu hai tài sản có hệ số tương quan thấp hoặc âm, kết hợp chúng trong danh mục sẽ giúp giảm rủi ro biến động. Đây là nguyên lý cơ bản của lý thuyết danh mục đầu tư hiện đại do Harry Markowitz phát triển.

Trong tiếp thị, các công ty phân tích dữ liệu hành vi tiêu dùng để tìm ra mối tương quan giữa chiến dịch quảng cáo và doanh số bán hàng. Việc hiểu rõ các mối quan hệ này giúp tối ưu hóa ngân sách marketing và cải thiện hiệu quả kinh doanh.

Hạn chế khi sử dụng tương quan

Mặc dù hữu ích, phân tích tương quan có những hạn chế cần được lưu ý. Trước hết, tương quan không chứng minh được quan hệ nhân quả. Hai biến có thể cùng biến đổi theo một cách nào đó nhưng không có mối liên hệ trực tiếp, mà cả hai cùng chịu tác động bởi một biến thứ ba. Đây là hiện tượng "tương quan giả" (spurious correlation) thường gặp trong nghiên cứu xã hội.

Thứ hai, dữ liệu ngoại lai có thể làm sai lệch hệ số tương quan. Một vài điểm dữ liệu bất thường có thể kéo giá trị r cao hoặc thấp bất thường, khiến nhà nghiên cứu đưa ra kết luận sai. Do đó, cần kiểm tra dữ liệu và loại bỏ ngoại lệ trước khi tính toán.

Thứ ba, tương quan chỉ phản ánh mối quan hệ tuyến tính. Nếu hai biến có quan hệ phi tuyến (ví dụ, dạng parabol), hệ số tương quan Pearson có thể gần bằng 0 mặc dù có mối quan hệ chặt chẽ. Trong trường hợp này, các kỹ thuật phi tuyến hoặc phương pháp dựa trên thứ hạng sẽ thích hợp hơn.

  • Tương quan không đồng nghĩa với nhân quả.
  • Dữ liệu ngoại lai làm sai lệch kết quả.
  • Hệ số Pearson không phản ánh quan hệ phi tuyến.

Tương quan và phân tích hồi quy

Tương quan và hồi quy là hai khái niệm liên quan chặt chẽ nhưng khác nhau. Tương quan chỉ đo lường mức độ liên hệ giữa hai biến mà không phân biệt vai trò của chúng. Ngược lại, phân tích hồi quy không chỉ xác định mối quan hệ mà còn xây dựng mô hình toán học để dự báo giá trị biến phụ thuộc dựa trên biến độc lập.

Ví dụ, tương quan giữa số giờ học và điểm thi cho thấy chúng có mối quan hệ tích cực. Nhưng chỉ có phân tích hồi quy mới cho phép dự đoán rằng mỗi giờ học thêm có thể làm tăng điểm thi trung bình bao nhiêu. Theo JSTOR, nhiều nghiên cứu khoa học thường sử dụng phân tích tương quan như một bước tiền đề trước khi tiến hành hồi quy để chọn lọc biến độc lập phù hợp.

Điểm khác biệt quan trọng khác là hồi quy có thể mở rộng để phân tích nhiều biến độc lập cùng lúc, trong khi tương quan chỉ phản ánh mối quan hệ hai chiều. Do đó, việc kết hợp cả hai phương pháp mang lại cái nhìn toàn diện hơn và nâng cao độ tin cậy của nghiên cứu.

Tài liệu tham khảo

  1. National Center for Biotechnology Information (NCBI) – Correlation Analysis
  2. ScienceDirect – Correlation in Statistics
  3. Encyclopedia Britannica – Correlation
  4. JSTOR – Statistical Methods and Correlation Studies
  5. Towards Data Science – Correlation and Regression

Các bài báo, nghiên cứu, công bố khoa học về chủ đề tương quan:

Nhiệt hoá học hàm mật độ. III. Vai trò của trao đổi chính xác Dịch bởi AI
Journal of Chemical Physics - Tập 98 Số 7 - Trang 5648-5652 - 1993
Mặc dù lý thuyết hàm mật độ Kohn–Sham với các hiệu chỉnh gradient cho trao đổi-tương quan có độ chính xác nhiệt hoá học đáng kể [xem ví dụ, A. D. Becke, J. Chem. Phys. 96, 2155 (1992)], chúng tôi cho rằng việc cải thiện thêm nữa là khó có thể xảy ra trừ khi thông tin trao đổi chính xác được xem xét. Các lý lẽ hỗ trợ quan điểm này được trình bày và một hàm trọng số trao đổi-tương quan bán t...... hiện toàn bộ
#Kohn-Sham #hàm mật độ #trao đổi-tương quan #mật độ quay-lực địa phương #gradient #trao đổi chính xác #năng lượng phân ly #thế ion hóa #ái lực proton #năng lượng nguyên tử
Ước lượng nồng độ cholesterol lipoprotein có tỷ trọng thấp trong huyết tương mà không sử dụng thiết bị siêu ly tâm chuẩn bị Dịch bởi AI
Clinical Chemistry - Tập 18 Số 6 - Trang 499-502 - 1972
Tóm tắt Một phương pháp ước tính hàm lượng cholesterol trong phần lipoprotein có tỷ trọng thấp của huyết thanh (Sf0-20) được trình bày. Phương pháp này bao gồm các phép đo nồng độ cholesterol toàn phần trong huyết tương khi đói, triglyceride và cholesterol lipoprotein có tỷ trọng cao, không yêu cầu sử dụng thiết bị siêu ly tâm chuẩn bị. So sánh quy trình được đề xu...... hiện toàn bộ
#cholesterol; tổng cholesterol huyết tương; triglyceride; cholesterol lipoprotein mật độ cao; lipoprotein mật độ thấp; phép đo không cần siêu ly tâm; hệ số tương quan; huyết thanh; phương pháp không xâm lấn
Bộ cơ sở Gaussian sử dụng trong các tính toán phân tử có tương quan. Phần I: Các nguyên tử từ boron đến neon và hydro Dịch bởi AI
Journal of Chemical Physics - Tập 90 Số 2 - Trang 1007-1023 - 1989
Trong quá khứ, các bộ cơ sở dùng cho các tính toán phân tử có tương quan chủ yếu được lấy từ các tính toán cấu hình đơn. Gần đây, Almlöf, Taylor, và các đồng nghiệp đã phát hiện rằng các bộ cơ sở của các quỹ đạo tự nhiên thu được từ các tính toán có tương quan nguyên tử (với tên gọi ANOs) cung cấp một mô tả tuyệt vời về các hiệu ứng tương quan phân tử. Báo cáo này là kết quả từ một nghiên...... hiện toàn bộ
#basis sets #correlated molecular calculations #Gaussian functions #natural orbitals #atomic correlated calculations
Phân Tích Chính Xác Năng Lượng Tương Quan Điện Tử Phụ Thuộc Spin cho Các Tính Toán Mật Độ Spin Địa Phương: Phân Tích Phê Phán Dịch bởi AI
Canadian Journal of Physics - Tập 58 Số 8 - Trang 1200-1211 - 1980
Chúng tôi đánh giá các hình thức gần đúng khác nhau cho năng lượng tương quan trên mỗi phần tử của khí điện tử đồng nhất có phân cực spin, những hình thức này đã được sử dụng thường xuyên trong các ứng dụng của xấp xỉ mật độ spin địa phương vào chức năng năng lượng trao đổi-tương quan. Bằng cách tính toán lại chính xác năng lượng tương quan RPA như là một hàm của mật độ điện tử và phân cực...... hiện toàn bộ
#khí điện tử đồng nhất #phân cực spin #xấp xỉ mật độ spin địa phương #năng lượng tương quan #nội suy Padé #Ceperley và Alder #tương quan RPA #từ tính #hiệu chỉnh không địa phương
Các phương pháp quỹ đạo phân tử tự nhất quán. XX. Một tập hợp cơ sở cho hàm sóng tương quan Dịch bởi AI
Journal of Chemical Physics - Tập 72 Số 1 - Trang 650-654 - 1980
Một tập hợp cơ sở Gaussian loại thu gọn (6-311G**) đã được phát triển bằng cách tối ưu hóa các số mũ và hệ số ở cấp độ bậc hai của lý thuyết Mo/ller–Plesset (MP) cho trạng thái cơ bản của các nguyên tố hàng đầu tiên. Tập hợp này có sự tách ba trong các vỏ valence s và p cùng với một bộ các hàm phân cực chưa thu gọn đơn lẻ trên mỗi nguyên tố. Tập cơ sở được kiểm tra bằng cách tính toán cấu ...... hiện toàn bộ
#cơ sở Gaussian thu gọn #tối ưu hóa số mũ #hệ số #phương pháp Mo/ller–Plesset #trạng thái cơ bản #nguyên tố hàng đầu tiên #hàm phân cực #lý thuyết MP #cấu trúc #năng lượng #phân tử đơn giản #thực nghiệm
Quan sát sóng hấp dẫn từ sự hợp nhất của một cặp hố đen Dịch bởi AI
Physical Review Letters - Tập 116 Số 6
Vào ngày 14 tháng 9 năm 2015 lúc 09:50:45 UTC, hai detector của Đài quan sát Sóng hấp dẫn Laser Interferometer đã đồng thời quan sát một tín hiệu sóng hấp dẫn tạm thời. Tín hiệu này tăng dần tần số từ 35 đến 250 Hz với độ căng sóng hấp dẫn đỉnh cao là 1.0×1021. Nó khớp với hình dạng sóng mà thuyết tương đối tổng quát dự đoán cho quá trình gia tăng và hợp nhất của một cặp hố đen và giai đoạn giảm âm của hố đen đơn thuần kết quả. Tín hiệu được quan sát với tỷ số tín hiệu trên tiếng ồn bằng phương pháp lọc khớp là 24 và tỷ lệ báo động sai ước tính là ít hơn 1 sự kiện trên 203.000 năm, tương đương với độ tin cậy lớn hơn 5.1σ. Nguồn phát nằm ở khoảng cách độ sáng 410180+160Mpc tương ứng với độ dịch chuyển đỏ z=0.090.04+0.03. Trong khung nguồn phát, khối lượng hố đen ban đầu là 364+5M294+4M, và khối lượng hố đen cuối cùng là 624+4M, với hiện toàn bộ
#sóng hấp dẫn #hố đen #thuyết tương đối tổng quát #phát hiện sóng hấp dẫn #hợp nhất hố đen
Lý thuyết Cam kết - Tin tưởng trong Marketing Quan hệ Dịch bởi AI
Journal of Marketing - Tập 58 Số 3 - Trang 20-38 - 1994
Marketing quan hệ—thiết lập, phát triển và duy trì các trao đổi quan hệ thành công—được xem là một sự thay đổi lớn trong lý thuyết và thực hành marketing. Sau khi khái niệm hóa marketing quan hệ và thảo luận về mười hình thức của nó, các tác giả (1) lý thuyết hóa rằng marketing quan hệ thành công cần có cam kết quan hệ và sự tin tưởng, (2) mô hình hóa cam kết quan hệ và sự tin tưởng như là...... hiện toàn bộ
#Marketing quan hệ #cam kết #tin tưởng #mô hình biến trung gian #nghiên cứu thực nghiệm
Suy diễn Cấu trúc Dân số Sử dụng Dữ liệu Genotype Đa Locus: Các Loci Liên Kết và Tần số Allele Có Tương Quan Dịch bởi AI
Genetics - Tập 164 Số 4 - Trang 1567-1587 - 2003
Tóm tắt Chúng tôi mô tả các cải tiến đối với phương pháp của Pritchard và cộng sự để suy diễn cấu trúc dân số từ dữ liệu genotype đa locus. Quan trọng nhất, chúng tôi phát triển các phương pháp cho phép có sự liên kết giữa các loci. Mô hình mới này xem xét các mối tương quan giữa các loci liên kết phát sinh trong các quần thể trộn lẫn (“mất cân bằng ...... hiện toàn bộ
Liên hợp bioconjugate Quantum Dot dùng cho phát hiện ultrasensitive không đẳng hướng Dịch bởi AI
American Association for the Advancement of Science (AAAS) - Tập 281 Số 5385 - Trang 2016-2018 - 1998
Các chấm lượng tử bán dẫn phát quang động cao (zinc sulfide–bọc kẽm selenide) đã được liên kết cộng hóa trị với các phân tử sinh học để sử dụng trong phát hiện sinh học siêu nhạy. So với các thuốc nhuộm hữu cơ như rhodamine, loại chất phát quang này sáng hơn 20 lần, ổn định chống lại hiện tượng phai màu quang 100 lần và có độ rộng đường quang phổ chỉ bằng một phần ba. Các chất liên hợp kíc...... hiện toàn bộ
#phát quang động #truyền dẫn tế bào #tương thích sinh học #liên hợp lượng tử #HeLa #nhãn miễn dịch #endocytosis
Nghiên cứu Kết hợp Thuốc và Định lượng Tương tác Mẫu Sử Dụng Phương Pháp Chou-Talalay Dịch bởi AI
Cancer Research - Tập 70 Số 2 - Trang 440-446 - 2010
Tóm tắt Bài báo ngắn này tập trung vào những lỗi và cạm bẫy phổ biến nhất, cũng như những điều nên và không nên làm trong các nghiên cứu kết hợp thuốc, liên quan đến thiết kế thí nghiệm, thu thập dữ liệu, diễn giải dữ liệu và mô phỏng trên máy tính. Phương pháp Chou-Talalay cho kết hợp thuốc dựa trên phương trình tác động trung vị, được rút ra từ ngu...... hiện toàn bộ
Tổng số: 1,597   
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 10